分类组级情绪是由于视频的复杂性,其中不仅是视觉的,而且应该考虑音频信息。对多模式情感识别的现有工作是使用庞大的方法,其中使用掠夺性神经网络作为特征提取器,然后提取的特征被融合。然而,这种方法不考虑多模式数据的属性,并且特征提取器不能用于对整体模型精度不利的特定任务的微调。为此,我们的影响是双重的:(i)我们训练模型端到端,这允许早期的神经网络层考虑到后来的两种方式的融合层; (ii)我们模型的所有层都针对情感认可的下游任务进行了微调,因此无需从头划伤训练神经网络。我们的模型实现了最佳验证精度为60.37%,比VGAF数据集基线更高,比VGAF数据集基线更高,并且与现有工程,音频和视频模式具有竞争力。
translated by 谷歌翻译